HOOOS

CUDA IPC

多节点 Slurm 集群中，如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态？

在大型 GPU 算力集群中，为了提升中小显存占用任务的吞吐量， NVIDIA MPS（Multi-Process Service，多进程服务）是一个几乎必选的方案。配合 Slurm 的 gres/mps 机制，多任务可以物理共享单...

306 2026/6/14 Slurm Ansible NVIDIA MPS
深度解析：NVIDIA MIG 与 MPS 在算力切分上的底层隔离机制有何本质不同？

在 GPU 算力虚拟化和多租户共享的场景中，NVIDIA 提供了两种主流的切分技术： MPS（Multi-Process Service，多进程服务）和 MIG（Multi-Instance GPU，多实例 GPU）。虽然这...

291 2026/6/14 NVIDIA GPU虚拟化 MIG MPS
Triton 复杂推理流水线：Ensemble 与 BLS 的时延损耗深剖与选型指南

在将深度学习模型推向生产环境时，极少有单体模型能包揽全部业务逻辑。一个典型的工业级推理服务往往由多个模块级联而成：例如“ 目标检测（YOLO） -> 抠图与对齐（预处理） -> 特征提取（ResNet） -> 向量检索与...

263 2026/6/14 Triton 模型推理性能优化
拒绝万恶的H2D拷贝：在Triton中用CUDA共享内存实现大图推理极速优化

在智能视觉、工业缺陷检测、超分辨率等场景中，我们经常需要处理 4K 甚至 8K 的超大尺寸图像。在传统的推理流程中，即使你把 GPU 上的模型优化到了极致，端到端的时延依然可能高达几十甚至上百毫秒。用 Profiler 仔细分析就会...

303 2026/6/14 Triton CUDA 性能优化
高并发下的多卡 Triton 推理优化：如何利用 CUDA IPC 与 NCCL 实现跨卡零拷贝级联？

在多卡（Multi-GPU）环境下部署复杂的大模型流水线或级联模型（Ensemble/Pipeline）时，GPU 之间的数据传输延迟往往会成为整个吞吐链路的致命瓶颈。典型的级联场景（例如： Visual Grounding 任务中...

261 2026/6/15 Triton CUDA IPC NCCL
舍弃外部网关，改用 Triton BLS 编排模型，延迟能降多少？

在多模型级联（如 ASR + NLP + TTS，或者目标检测 + 裁剪 + 属性分类）的业务场景中，如何编排模型一直是个经典架构问题。常见的做法有两种：外部网关分桶/编排：在 Triton 外部写一个 Go/Pyth...

184 2026/6/15 Triton 模型部署延迟优化
突破 IPC 瓶颈：如何在 Triton Python Backend 中优雅地使用 CUDA Shared Memory？

在高性能深度学习推理场景中， Triton Inference Server 凭其优秀的并发处理能力被广泛采用。然而，许多团队在使用 Python Backend 编写自定义预处理或模型后处理逻辑时，常常会遇到性能瓶颈。这个瓶...

240 2026/6/15 Triton CUDA 性能优化
Triton 架构下 Python 与 PyTorch Backend 的并发显存开销差异及泄露精准定位实践

在生产环境中部署深度学习模型时，NVIDIA Triton Inference Server 是最常用的高性能推理引擎之一。然而，许多开发者在从 PyTorch (LibTorch) Backend 迁移到 Python Backend，...

255 2026/6/16 Triton 显存泄漏 PyTorch
Triton 报 Shared Memory 内存不足？免重启在线清理与重建指南

在生产环境中部署 Triton Inference Server 时，为了追求极致的吞吐和极低的延迟，我们通常会开启**共享内存（Shared Memory，包括 System SHM 和 CUDA SHM）**来传输 Inference...

251 2026/6/16 Triton 共享内存深度学习部署
Triton共享内存在C++与Python客户端下的性能差异与调优实践

在利用 Triton Inference Server 部署高吞吐、低延迟的深度学习模型时，传统的 gRPC 或 HTTP 协议往往会因为数据序列化/反序列化以及网络栈拷贝成为系统瓶颈。特别是在处理超大图像、视频流或高维张量时，这...

299 2026/6/16 Triton 共享内存性能调优